【精彩论文】基于深度强化学习的建筑能源系统优化策略
基于深度强化学习的建筑能源系统优化策略
石文喆1,2, 李冰洁1,2, 尤培培3, 张泠1,2
(1. 湖南大学 土木工程学院,湖南 长沙 410082; 2. 建筑安全与节能教育部重点实验室,湖南 长沙 410082; 3. 国网能源研究院有限公司,北京 102209)
引文信息
石文喆, 李冰洁, 尤培培, 等. 基于深度强化学习的建筑能源系统优化策略[J]. 中国电力, 2023, 56(6): 114-122.
SHI Wenzhe, LI Bingjie, YOU Peipei, et al. Optimization strategy of building energy system based on deep reinforcement learning[J]. Electric Power, 2023, 56(6): 114-122.
上述基于强化学习提出的建筑能源系统优化控制策略侧重点在于提高用能经济性,但针对建筑能源系统运行中的实际情况,控制室内温度和促进可再生能源本地消纳也应作为控制策略的重要评价指标。本文以最小化用能成本、保证室内热舒适性、最大化可再生能源本地消纳为目标,提出一种基于深度强化学习的建筑能源系统优化控制策略。首先,建立了建筑能源系统各组件模型,包括光伏发电、蓄电池储能和电热泵模型。然后,定义了决策过程中状态、动作空间及奖励函数,选用深度Q网络(deep Q network,DQN)和决斗双深度Q网络(dueling double deep Q network,D3QN)算法,并使用离线数据集对算法进行训练,证明了D3QN算法的优越性。最后,分别利用训练后的D3QN算法和传统基于规则的控制策略,应用于同一场景下的建筑能源系统,对比分析了2种运行策略下建筑能源系统的性能。
建筑能源系统包括光伏发电组件、蓄电池储能装置以及电热泵,具体结构如图1所示。
图1 建筑能源系统结构
Fig.1 Structure of building energy system
决定光伏发电组件功率输出的主要因素包括局部太阳辐射强度、光伏板面积和光伏系统发电效率,其中发电效率主要考虑光伏系统逆变器和并网之间的转换效率[20]。t时刻光伏发电功率
式中:
本文将该优化问题表述为1个马尔可夫决策问题,具体表示为(S, A, R, π),其中S为环境状态集合,A为智能体动作集合,S×A→R为奖励函数,π为智能体策略集。在每个时间步骤t中,智能体作为控制中心,通过观察环境状态 st∈S ,并基于策略π选择动作 at∈A(s) 后,智能体得到奖励 r(st,at) ,同时环境变成下一个状态。智能体与环境交互如图2所示。
图2 智能体与环境交互
Fig.2 Schematic of the agent interacting with the environment
1)状态空间。状态空间包含一组与环境相关的已知物理量,在能源管理系统调度的过程中,t时刻智能体观察到的环境状态空间St为
决斗深度Q网络提出了一种新的神经网络结构,如图3所示。与DQN中深度神经网络在接受状态值直接输出Q值所不同的是,决斗深度Q网络将输出Q值分成了状态价值V和动作优势价值A,从而避免了网络训练中过拟合问题,加快了训练速度,具体表示为
图3 D3QN神经网络结构
Fig.3 D3QN neural network structure
D3QN的算法训练过程如图4所示。
图4 D3QN训练过程
Fig.4 D3QN training process
针对冬季工况下的系统优化,选取2018年1月、11月和12月的湖南省长沙市实测气象数据进行模拟,如图5所示。光伏板面积设定为40 m2,根据气象数据计算得到冬季光伏发电量如图6所示。储能装置型号为6-GFMJ-200,容量为7.2 kW·h,充放电效率为90%,充放电功率设定为1.44 kW,荷电状态的最大/最小值为0.9/0.2。为考虑实时电价对系统策略的影响,采用澳洲能源网站中相似气候条件下冬季实时电价数据,高峰电价和低谷电价分别设置为0.7和0.4元/(kW·h),余电上网电价为0.4548元/(kW·h)。电热泵与建筑相关参数如表1所示,将室内舒适温度上限和下限分别设置为22 ℃和18 ℃。
图5 2018年湖南长沙气象参数
Fig.5 Meteorological parameters of Changsha, Hunan in 2018
图6 电价与光伏发电功率
Fig.6 Electricity prices and photovoltaic power
表1 热泵与建筑参数
Table 1 Heat pump and building parameters
针对本文建筑能源系统,提出如下控制策略作为基准模型。电热泵和储能系统分别通过调整运行功率和充放电状态控制系统运行。其中热泵运行功率根据当前时刻室内温度和电价确定;充放电状态是在规定电池荷电状态范围内,根据当前时刻电价与光伏发电量确定。由此可知,基准模型的优势在于能够根据当前环境参数给出确定的控制策略,并及时进行动态调整来应对环境变化,从而满足用户的舒适性和经济性需求。具体控制策略如表2和表3所示。
表2 基准模式热泵运行策略
Table 2 Baseline mode heat pump operation strategy
表3 基准模式储能运行策略
Table 3 Baseline mode energy storage operation strategy
为探究不同深度学习算法在训练过程中的特性,本文选取D3QN和DQN算法并设置相同的超参数,对比研究迭代过程中的奖励函数曲线和均值奖励函数曲线,如图7所示。在前期训练过程中,2种算法的奖励函数都有不同程度震荡,这是由于智能体尚处于探索阶段,存在很多随机动作选择。但经过多次迭代之后,2条奖励函数曲线的收敛趋势基本一致,后期奖励函数趋于稳定且稳定值接近,都取得了良好的训练效果。通过对比D3QN和DQN曲线的缩略图,可以发现二者的奖励函数值在相同的训练回合内,D3QN总体较高,收敛速度更快,这得益于D3QN在计算目标Q值时将动作选择和动作评价分离,避免了过估计,改进了神经网络结构,从而加快了收敛速度。
图7 2种算法训练过程奖励函数对比
Fig.7 Comparison of reward functions during training of two algorithms
采用基准模型和D3QN算法在同一场景下进行优化,并从供需侧的角度对优化结果进行讨论分析。需求侧的控制策略需要权衡经济性和热舒适性,要求模型对电价与天气条件的变化即时响应。采用1月份环境状态参数对2种优化模型进行评估,如图8所示。在一个月的时间尺度上室外温度有较大波动,基准模型虽然大部分情况下能够满足室温要求,但是在室外温度持续偏高(第8~12天)或者偏低(第22~28天)时,控制效果并不理想,热不舒适时长共为3975 min。这是由于基准模型的控制策略面对一些特殊情况时,不具备自主调节的能力;对比D3QN优化模型则较好地将室内温度控制在舒适区间内,热不舒适时长降低为195 min,充分体现了D3QN优化模型具有较强的适应性。
图8 1月份室温对比
Fig.8 Room temperature comparison in January
为更直观地对比2种控制模型的区别,选取1月典型日,如图8中黑色虚线所示,得到热泵功率曲线如图9所示。可以看出,2种模型对电价变化的响应基本一致,即高电价时功率相应减小,低电价时功率增大。如在电价较低的时段06:00—08:00,二者的热泵功率都处于较高的状态,而在时段19:00—21:00,二者的热泵功率都出现了不同程度上的降低。但是在D3QN优化模型下热泵的功率变化幅度更大,对电价信号更加敏感,说明智能体经过学习面对不确定性环境能做出更灵活的决策。
图9 1月份典型日热泵功率对比
Fig.9 Comparison of typical daily heat pump power in January
能源供应侧评价储能系统控制策略的标准包括2点:1)蓄电池的充放电策略响应峰谷电价以减少用电成本;2)在光伏发电较多的时段,蓄电池应尽可能采取充电策略实现可再生能源的本地消纳。选取1月份典型日,得到2种控制模型下的蓄电池充放电功率如图10所示,基准模型控制下储能系统的充电时段分别在01:00—02:00(低谷电价)和09:00—13:00(高光伏发电),放电时段则集中在14:00—17:00(高峰电价)。经计算电成本为11.36元,未消纳光伏发电量为5.25 kW·h。D3QN优化储能系统的整体控制逻辑与基准模型一致,不同的是充放电频率变高,主要体现在00:00—07:00和18:00—24:00(无光伏发电)时段,储能系统在电价升高时放电,电价降低时充电,以保证供电的经济性。经计算在该典型日用电成本为8.76元,未消纳光伏发电量为4.84 kW·h,相较于基准模型分别降低22.89%、7.81%。
图10 1月份典型日储能对比
Fig.10 Comparison of typical daily energy storage in January
通过分析以上2种控制模型,可以看出经过训练的D3QN算法的优化结果无论是在能源需求侧还是在供给侧,都强于基准模型,量化对比完整的优化周期(31天)各类评价指标,如表4所示。相较于基准模式,D3QN模型用电成本降低11.03%,热不舒适时长降低89.62%,未消纳光伏发电量降低10.43%。
表4 2种控制模型结果对比
Table 4 Comparison of the results of the two control models
作者介绍
石文喆(1998—),男,硕士研究生,从事深度强化学习在建筑能源系统中的理论研究,E-mail:shiwenzhe@hnu.edu.cn;★
张 泠(1969—),女,通信作者,博士,教授,从事建筑能源系统柔性用能研究,E-mail:zhangling@hnu.edu.cn.
往期回顾
◀【精彩论文】微电网调度模型的寻优性能与求解效率改进优化◀【精彩论文】基于语义信息距离解耦的变电运维多类别缺陷图像检测◀【精彩论文】500 kV交流线路对并行±800 kV直流线路带电作业人员安全防护的影响◀【精彩论文】供电分区场景下基于数据驱动的负荷密度综合评估及预测方法◀【征稿启事】“分布式智能电网的规划、运行和电力交易”专栏征稿启事◀【征稿启事】“新型能源体系下电碳协同市场机制及优化运行”专栏征稿启事◀【征稿启事】“面向碳达峰碳中和目标的清洁高效发电技术”专题征稿启事◀【征稿启事】“新型电力系统低碳规划与运行”专栏征稿启事
审核:方彤
根据国家版权局最新规定,纸媒、网站、微博、微信公众号转载、摘编《中国电力》编辑部的作品,转载时要包含本微信号名称、二维码等关键信息,在文首注明《中国电力》原创。个人请按本微信原文转发、分享。欢迎大家转载分享。